查看原文
其他

天苍苍,雪茫茫,他们在3000里外为阿里巴巴守“心脏”

技术琐话 2019-12-17

以下文章来源于杭派工程师 ,作者云希

撰文| 云希     编辑| 猛哥
图片、视频| 阿竜(除署名外)


 
01


 
十一月的塞外。
 
冷风如刀,以大地为砧板,视众生为鱼肉。莽莽飞雪,将苍穹作洪炉,溶万物为白银。
 
雪未住,风未定。一辆农用车自北突突而来。滚动的车轮碾碎了地上的冰雪,却碾不碎天地间的孤寒。
 
崚风带兄弟们进城去打牙祭。
 
去的还是同一家餐馆,点的也还是同样几个菜。“没得选,就这一家开张,味道过得去的就这几个菜。”
 
聚餐完,崚风去隔壁理发店理发。刚坐下没多久,先前在餐馆上菜的大妈跑了过来,洗了洗手,拿起剃刀。见他惊诧,她摊摊手:“人手不够,没办法啊”。
 
两年多了,一切都没变。
 
这里是张北。
 


“十年九旱,靠天吃饭;远看像个村,近观村无人。”全县超过接近6成的人在外打工。每年雪融化后,年轻人一拨拨走了,只有老弱妇孺留守。
 
现在张北又多了一群新面孔,他们都是阿里巴巴工程师。
 
02
 
张北县,因在张家口之北而得名,地处河北省西北部,与内蒙古高原接壤,草原天路绵延不绝,平均海拔1400米,年平均气温仅为2.6度,冬季最低气温可达零下38度。
 
极端环境,让张北几乎成为不毛之地。可极端环境,也让张北获得了一个天大的机遇。
 
大数据时代来临后,云计算风起云涌。全球云巨头为数据中心选址时,极其重视地理环境所能带来的能耗节约。
 
国际公认,张北地处发展云计算的"黄金纬度"地区,年平均气温低,是天然散热场,能为云计算运营降低近59%的冷却能耗;此外风电、光伏电能充足,空气质量优良。
 
2015年,阿里巴巴在此兴建张北云数据中心,三个园区(1号、2号及3号)  建造相似,便于分散存储、互为备份和并行计算,这也是专为云计算定制的新一代数据中心。园区采用双路电力保障,并有备用电力系统作为应急,让服务器稳定运行,永不中断。
 
图源:阿里巴巴官网
张北云数据中心,是阿里巴巴这个庞大经济体的“技术心脏”,可容纳数十万台服务器。
 
其百分百基于绿色能源运转,采用自然风冷和自然水冷系统,每年可节省5.9万吨的碳排放,这相当于323万颗树一年的二氧化碳吸收量。
 
作为目前国内最先进的云计算节点之一,它能为两百万中小企业提供包括弹性计算、数据库、云存储、人工智能等产品技术和服务。
 
2018年6月,北京冬奥组委与阿里云联合揭牌北京冬奥云数据中心,花落张北。
 
所有设备统一采用四种颜色:中国红,阿里橙,Tiffany蓝,蒙古白,很是夺目。
 
张北这群运维工程师都是在数据世界神经末梢“跳舞”的人,牵一发而动全身。
 
 
03

  
2号园区,位于张北县城30公里以北的草原深处。一连几天,都不会有一个外人经过。
但晔岩并不寂寞,因为他有一个特殊的小伙伴——“大白”。
 
天巡机器人“大白”
“大白”是昵称,正式学名叫阿里巴巴天巡,是张北创新实验室研出的新物种机器人,也是全球唯一的数据中心高精度智能运营机器人。它带有全景高精度摄像头、传感器,在巡检中可以完成温度、湿度、空气质量和服务器运行状态等检测工作,接替运维人员30%的工作量。
2号园区占地11万平方米,约莫15个足球场大小,作为一名数据运维工程师,晔岩要准确掌握园区每一台机器的运行情况,严格控制温度、湿度、电压等数百项参数。
 
”大白“到来之前,晔岩每天巡检机房要花费4小时,走2万步。有了“大白”,他每天只需花费1小时,走5000步。
工作中须臾相伴,这一人一机结下最深的友谊。
  
园区周遭是茫茫草原,与城市里写字楼不一样,在这里陪伴晔岩的只有日出日落和虫鸣鸟叫。尤其是到夜里,“大白”身上的橙色信号光和表面的工作余温,让晔岩倍感温暖。
 
04
 
2017年11月,晔岩初到张北。
 
他是土生土长的张家口人,国字脸,大眼睛,笑起来憨厚朴实,30出头的年纪,正是满腔热血,听说要去阿里巴巴的数据中心大本营,按捺不住内心的期盼。虽对张北气候之恶劣早有耳闻,但仗着自己算是本地人,他估摸着不至于有大落差。
 
晔岩
可当他拖着行李站到2号园区门口时,还是有些措手不及,园区正在进行二期建设,推土机和重型卡车来回穿梭。
 
同事们正裹着羽绒服,蹲在地上一根一根地扒开服务器末端的接口,确认绝缘外套没有被冻坏。
晔岩此前从未到过工地,见此情景,把行李一放,也去扒接口。
 
零下30多度,出门一分钟胡渣就结满了冰霜,手一会儿就冻麻了,只得一边跺脚,一边作业。
 
近两万个接口,大伙整整扒了2周。每天都从天蒙蒙亮忙到晚上十一点多,完了蹲在园区门口,哆哆嗦嗦地撸麻辣烫。
 
晔岩就是这段时期与布赫(现乌兰察布数据中心运维工程师)结识。
 
布赫来自内蒙古,却有着南方人的秀气轮廓,声音浑厚清亮。他和晔岩年纪相仿,又前后脚一起到张北,故而要好。
 
两人时常在施工间隙,哈着冷气,红着鼻头,想象着数据中心建成的场景。
 
2018年5月,2号园区二期工程封顶竣工,一座世界级的数据中心拔地而起。
 
05
 
“我们只能依赖彼此。” 崚风负责统筹整个张北云数据中心。
 
他出生于1978年,是一个魁梧的内蒙汉子,有着草原人独有的霸气和威严。他电气专业出身,有着十几年的运维经验,是团队当之无愧的大哥。
 
崚风
2018年,他和子文前后脚来的张北。
 
子文驻守3号园区,这个山东小伙,30出头,娃娃脸,开朗健谈,总是笑盈盈的。可到3号园区后,他便笑不出来了。
 
机器运维,一怕热,二怕没电。而当时3号园区的几万台服务器由于施工延迟,只能靠柴油发电机临时供电。
 
这还不是最糟的,园区还有数十万条纵横交错的线路和水、电、油等各项设备急需全面优化。
 
子文和团队必须逐台地核检机器和线路逻辑,还不能影响业务。
 
 那段时间,大家的心都提到了嗓子眼,子文和崚风就睡在了机房。
 
三个月后,3号园区的机房稳如磐石。
“我们已经习惯跟机器聊天了。”在晔岩和布赫的眼中,机器是兄弟和朋友。他们对每台机器发出的声音、散发的味道、以及保修项目都烂熟于心。


06

 
崚风此前十几年一直在呼和浩特工作,这个蒙古汉子极其看重家庭,无论有多好的机会,都不愿意离开家乡。
 
但他选择来到张北,“是为了理想。”
 
不是每一个人都有机会参与世界级数据中心的建设和运维,见证着人类科技的更迭。
 
张北云数据中心,拥有全球最大规模的浸没液冷服务机群。
 
浸没液冷服务器
传统数据中心,有近40%的能源消耗在散热机制,能源使用效率低。而现在,服务器浸泡在特殊冷却液里,产生的热量可被冷却液直接带走进入外循环自然冷却,整体节能70%,单位体积内计算能力提升10倍以上。
 
去年5月,液冷服务器刚运到1号园区时,运维团队瞬间“炸”了。大家小心翼翼地围绕着液冷集群,好奇又激动,“之前只是听说过,没想到能一下子看到这么大规模的液冷集群,还能自己运维。“ 素来冷静自持的运维团队不淡定了。
阿里巴巴的技术架构团队还自主研发了电动机械吊臂,能够在液体中自动化捞取、更换液冷故障元件。
但如此大规模的浸没液冷服务机群,具体如何补液、如何维修故障元器件,都没有前例可循。

为了能“照顾“好这个宝贝,大家开始学习液冷维护技术。路上、打水间、休闲吧,到处都是他们翻阅资料学习的身影。
 
子文记得,有次大家一起吃饭,刚坐下就讨论技术,二十多分钟过去了,直到菜凉了,大家筷子都没有动一下。
 
就这样,大家总结归纳出了更加便利有效的液冷维护操作指南。
 
 
07
 
今天,数以亿计的人如呼吸般自然地使用淘宝、天猫、盒马、菜鸟,每一次下单、付款、每一次实时的物流监测,都依托阿里云的技术支撑。
 
阿里AI每天调用超1万亿次,服务全球10亿人,日处理图像10亿张、自然语言5千亿句,如果没有足够服务器集群所构建的数据中心,云计算就是无源之水。
 
“虽然身在荒凉、偏远的张北,但我们明白自己是在守护亿万用户和城市的繁华。”星双说,他是1号园区的运维工程师。
 
星双
他们宛如一枚银币,工作和生活,就是银币的两面,密不可分,又截然不同。
 
进入园区,他们在“智能设备大脑”等AI技术的辅助下,统筹着数据世界里的精兵壮马,运筹帷幕,决胜千里;他们自主研发的运维技术,保障了全球最大且独一无二的浸没液冷服务机群的稳定运行,服务亿万用户。
 
走出园区,迎接他们的,只有一望无垠的草原,呼啸而过的风声中夹杂牛羊零星发出的“哞”“哞”声。
 
这种反差很魔幻,也很真实。
 
在张北云数据中心,运维团队有一个不成文的规矩,出去聚餐,如果有人临时要处理警报,无论等多久,哪怕到半夜,都要等他回来再开饭。“一家人就是要整整齐齐的。”
 
虽然多是北方小伙,但除了崚风和布赫,其他人都不曾在张北这样僻远的草原地带生活过。
 
夏天的夜晚,崚风会带着大家去野外烤肉。广袤无垠的草原深沉如墨,寂静无声,只有他们周围红色火星子就着烤肉发出“滋滋”声。
 
兴致来了,崚风会带着弟弟们唱蒙古歌。一起笑,一起闹,一起抵抗庞大的孤独。
 


08
 
2019年天猫双11,张北云数据中心将承接大部分的流量。
 
三个月前,运维团队就制定了完备的方案,将整个系统进行了大检查,光压测就做了四五次,供水供油供电都要提前到位。
 
双11前一周,机房每2小时报告一次,风险排查,应急演练,防水防火防冻专项检查,有条不紊。
 
到了11月10日,大战在即,众人成竹在胸。
 
“今年是最省电的双11”,经历过5年双11的崚风语气中难掩骄傲。
 
2015年,10笔电商交易消耗的能源可以煮熟1个鸡蛋;现在,使用最新的液冷技术后只够煮熟1个鹌鹑蛋了。
 
张北云数据中心的节能效果已经逼近极限,每万笔电商交易的耗电量控制仅在2度以内,这意味着双11全天能为全社会节省超过20万度电耗。




11
 
双11,人类史上前所未有的商业活动,是对技术的极致挑战。
 
当零点时刻进入倒计时,杭州西溪园区彩灯四射,媒体云集。
 
3000里之外的张北,工程师们各自进入岗位待命。
 
晔岩驻守2号园区,子文留在3号园区,崚风和十几个运维人员进入主作战室——1号园区“可汗宫”,那里有主监控屏。
起初,机房2个小时通报一次,后来变为1小时,最后10分钟通报一次。
 
23点50分,崚风起身走到角落,拿起对讲机,进行最后一轮的审查:“注意加强巡检,随时通报情况”
 
23点59分,面对即将汹涌而至的数据海啸,大家神色自若。
 
零点时刻,大屏幕上的用电功率骤然飙升。
 
图源:阿里巴巴官网
96秒后,交易额冲到100亿,订单创建达到54.4万笔/秒的峰值记录。
 
“2园区一切运行正常”
 
“3园区一切运行正常”
 
对讲机里不时传来反馈。
 
零点十分,峰值已过。
 
在杭州,阿里巴巴对外宣布,其核心系统已100%跑在阿里云公共云上,“飞天”操作系统成功扛住全球最大规模的流量洪峰,掌声和鼓声雷动。
 
在张北,一场意料之中的鏖战过后,云数据中心陷入悠长的平静。这里仿佛被外界遗忘。
 
“当人们感知到我们,就是出问题了。最好没有人知道我们的存在。” 这群工程师十分坦然。
 



12 
 
“张北县,蒙原南,长城外,古道边,连大漠,接中原,历史久,四千年……”
 
张北,俗称坝上,古为边陲,一代又一代的将士戍守在此,舍身护国。
 
千年之后,历史以另一种版本上演。
 
人类分分秒秒间制造海量的数据,在这无边的冲击中,有一群人在守护着科技的边界。
 
今夜如此,夜夜皆然。


往期推荐


技术琐话 


以分布式设计、架构、体系思想为基础,兼论研发相关的点点滴滴,不限于代码、质量体系和研发管理。本号由坐馆老司机技术团队维护。


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存